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Алгоритм внесення роботизованим комп’ютером 1нформаци 
з паперових документи в електронн! бази даних 


В этой работе рассматривается процесс обработки бумажной документации. Предложены алгоритм 
автоматизации этого процесса с помощью роботизированного компьютера и возможная структура 
электронных документов. 
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Ключов! слова: роботизований комп'ютер, бюстер, алгоритм, автоматизация. 


Перенос информации с бумажных источников в электронные базы данных пред- 
приятий является одним из наиболее важных процессов в документообороте. Актуальность 
автоматизации этого процесса обусловлена несколькими факторами, наиболее важным 
из которых является обеспечение достоверности введенных данных. Вторым фактором 
является необходимость обеспечения высокой скорости обработки документов, от которой 
зависит эффективность работы предприятия. Производительность оператора снижается 
с каждым обработанным им документом. Глаза устают, когда приходится долго смотреть 
на экран компьютера и это сказывается на всем организме. В частности, замедляются 
рефлексы и ослабляется внимание [1]. Как следствие — оператор начинать работать 
медленнее и допускать больше ошибок. Третьим фактором является неравномерность 
объемов поступающих на обработку документов в разные периоды времени. Чтобы 
справляться с пиковыми нагрузками предприятиям приходиться содержать большой 
штат сотрудников, который болыпую часть времени работает в неполную силу. 
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При обработке документов человек ловит взглядом характерное словосочетание и 
сразу понимает, к чему оно относится и как следует обрабатывать эту информацию. В то 
же время для робота это весьма непростая задача. Одной из важнейших задач на пути к 
разработке роботизированного компьютера, способного заменить на рабочем месте 
офисного сотрудника, является распознавание образов. Роботизированный компьютер 
должен не только распознавать множество объектов окружающего мира, но и уметь их 
классифицировать. 

Целью данной работы является разработка алгоритма внесения роботизирован- 
ным компьютером информации из бумажных документов в электронные базы данных и 
формирование структуры электронного документа. 


Алгоритм внесения роботизированным компьютером 
информации из бумажных документов в электронные базы данных 


Любой тип документа имеет перечень обязательных полей, которые необходимы 
для проведения каких-либо операций над документом. Также в документе могут содер- 
жаться дополнительные поля, определенные спецификой работы конкретного предприятия. 
Наименования полей выступают в качестве ключевых слов (дескрипторов). Ключевые 
слова, которые являются эквивалентными либо синонимами, объединяются в одну 
дескрипторную группу. 

При анализе документа человек опирается на характерные для данного типа до- 
кументов ключевые слова и словосочетания. Например, на рис. 1 встречаются клю- 
чевые слова: «Постачальник», «Одержувач», «Сплатити до» и пр. 


Образец документа 


Постачальник; ООО *Би Энд Пи, ЛТД (совместная деятельность)* 
Р/р 2650083012307 в ГОУ ПИБ в гКиеве, МФО 300012 
ПН. номер сыаоцтва 36073005 
код ЕЛРПОЧ 14351789, Адреса: пр. Червонозоряний, 3 
Одержчвач: ДЛ "Квза-Трейл" 
Сплатити до 02.09.2004, тел 
Рахунок-фактура №6 
в 30 серпня 2004 р. 
Од. 


к Щна без | Сума без 


ш [3 2200 65.00 
2 1200 2400 

1 2200 22 10 
Разом без ПДВ: 112,00 
Знижка/Надбавка: | — 000 
Разом без ПДВ: 112,00 
ПДВ: 22,40) 

Всього з ПДВ: 134.40 


Драже Свиточ изюм в какао ВОг | шт | 
Арахис Клинское пиво копчений ЗОг [| шт | 


№ Назва _ вим. л. ПДВ ПДВ 
1 


| 


Всього на суму 
Сто тридцять чотири грн 40 коп. 
ПДВ: 22.4 грн 


Рисунок 1 — Отсканированный образец документа на экране бюстера 


Тип документа человек определяет на базе определенного дескриптора («Рахунок- 
фактура» на рис. 1) либо исходя из структуры документа (перечня ключевых слов, 
характерного для определенного типа документов). Значение дескриптора (поля до- 
кумента) обычно располагается либо справа от него, либо снизу. 

Анализ документа роботизированный компьютер может выполнять на базе 
определенных дескрипторов, которые он может получить как из сети от другого компью- 
тера, так и непосредственно от руководителя. 
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На рис. 2 представлен алгоритм, который позволит роботизированному компью- 
теру (бюстеру) обрабатывать документы аналогично тому, как это делал бы человек. 

Документы, предназначенные на обработку, помещаются в очередь. В данном 
случае под очередью подразумевается некоторая ячейка (контейнер), в которую будут 
складывать документы на бумажных носителях. Роботизированный компьютер через 
блок управления механическими устройствами будет подавать команды манипулятору 
для перемещения документов из очереди на обработку, листания документов, пере- 
ворота листов документа и перемещения обработанных документов в соответст- 
вующую ячейку [3]. 

Ячейку необработанных документов целесообразно снабдить детектором веса. 
Таким образом, как только в ячейку будет помещен какой-либо документ — детектор 
веса отправит сигнал о том, что в очереди появился документ для обработки. Закончив 
обработку документа, роботизированный компьютер отправляет детектору веса запрос 
на наличие в очереди документов для обработки. Если детектор веса возвращает 
нулевое значение, то компьютер через определенные интервалы времени отсылает 
ему запросы на наличие документов в очереди. 

Документы могут состоять из нескольких скрепленных листов. Поэтому должен 
быть предусмотрен механизм листания документа. 

Документ, изъятый из ячейки необработанных документов, сканируется с обеих 
сторон. Если документ состоит из нескольких скрепленных листов, то все они 
сканируются с обеих сторон. 

Для распознавания отсканированного документа возможно использование сущест- 
вующих систем интеллектуального ([шеШеепё СВагасег Кесоствоп, 1СК) распозна- 
вания символов, которые часто используются для распознавания как печатных, так и 
рукописных текстов. Примерами систем, причисляющих себя к категории 1СК, 
являются: Ешекеадег, Оти!Расе РгоЕе$51опа|, Кеадил$ Согрогае, Туре Веадег ОезКюр [4]. 

В результате распознавания текста формируется многомерный массив лексем. 
То есть каждая строка документа будет представлять собой массив текстовых 
значений. Каждая лексема представляет собой пару значений: непосредственно сама 
лексема и координата по оси Х. Хранение информации о координатах по оси Х не- 
обходимо при поиске значения дескриптора. 

Согласно алгоритму, представленному на рис. 2, в массиве лексем производится 
поиск дескриптора, определяющего тип документа. Если он не найден, то из массива 
лексем выбираются все лексемы, которые совпадают с дескрипторами типовых 
документов. Затем подсчитывается количество совпадений элементов массива дескрип- 
торов документа с элементами массивов дескрипторов типовых документов. Чем выше 
процент совпадений с дескрипторами определенного типа документов, тем больше ве- 
роятность, что к этому типу относится отсканированный документ. Если процент 
совпадений одинаков либо незначительно отличается у нескольких типов документов, 
то производится сравнение последовательности появления дескрипторов в отскани- 
рованном документе и в типовых документах (построчно сверху вниз). Соответственно, 
чем больше совпадений в порядке следования дескрипторов отсканированного доку- 
мента с типовым, тем больше вероятность, что он относится к этому типу. 

Если типовой массив дескрипторов отсканированного документа не совпал ни 
с одним массивом типового документа, то необходимо проверить ячейку необработанных 
документов (очередь) на наличие продолжения обрабатываемого документа (поскольку 
документ может состоять из нескольких отдельных листов). Если в очереди нет 
продолжения этого документа, следует отложить документ и отправить запрос на 
получение дополнительной информации в сеть и руководителю. 
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Ячейка необработанных 
документов Сигнал о наличии 


а 
Поиск дескриптора, очереди 


определяющего тип Перемещение документа 
документа Массив лексем на обработк 
Сканирование и распознавание 
текста документа 


Блок управления 
механическими 


устройствами 


е определен 

Сравнение списка дескрипторов обрабатываемого 
Тип документа со списками обязательных дескрипторов 
документа стандартных типов документов предприятия 


Тип документа 
определен? 


Тип 
документа 


Не опоелелен 
Тип документа 


определен? 


Отложить документ до 
момента поступления 
дополнительной 
информации. 


Поиск дескриптора в документе 


Дескриптор 
найден? 


Отправить запрос в сеть и 
руководителю на 
получение дополнительной 
информации по документу 


В перечне есть еще 
дескрипторы? 


Справа от 
дескриптора есть 
лексема? 
Ла Поставить 

документу признак 


Н недостаточности 
ет ексема является информации 


дескриптором? 


Строка может быть шапкой Дескриптор 
таблицы входит в перечень 


обязательных? 


У документа 
стоит признак 
недостаточности? 


Да 


В ячейке Нет 
необработанных есть 
продолжение 
документа 


Снизу от 
дескриптора есть 
лексема? 


Да 


Перемещение 
начение поля не найдено обработанных 


3 
ексема является 


дескриптором? 


Лексема является 
дескриптором? 


Нет 
Конкатенация лексемы со 
значением текущего дескриптора 


Рисунок 2 — Алгоритм обработки бумажных документов бюстером 


Нет Справа от 
Значение поля значения есть 
найдено лексема? 
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Если тип документа определен — начинается его обработка, то есть занесение 
содержащейся в нем информации в базу данных. Каждый дескриптор конкретного типа 
документа ищется в массиве лексем отсканированного документа. Значение деск- 
риптора ищется вначале справа (то есть в той же строке, что и дескриптор, но 
правее). Если лексема, стоящая справа от дескриптора не является также дескрипто- 
ром, то это и есть искомое значение, которое заносится в базу данных. Иначе поиск 
значения осуществляется на следующей строке непосредственно под дескриптором. 
То, что лексема может являться значением дескриптора, расположенного над ней 
определяется на основе сравнения ее координат по оси Х с координатами дескриптора с 
учетом некоторого среднеквадратического отклонения. Если лексема под дескрипто- 
ром не является также дескриптором, то значение найдено. 

При занесении значения дескриптора в базу знаний производится проверка 
соседней справа лексемы. Если она не является дескриптором, то она конкатенирует- 
ся со значением обрабатываемого дескриптора. Конкатенация лексем происходит до 
тех пор, пока справа от лексем не встречается новый дескриптор. Если последняя в 
строке лексема не является дескриптором, то возможна конкатенация с лексемами 
следующей строки. 

Если и справа и снизу от дескриптора стоят только дескрипторы - это значит, 
что в документе не заполнено значение для этого поля. В таком случае необходимо 
проверить, относится ли этот дескриптор к перечню обязательных для данного типа 
документов. Если нет, то можно просто перейти к обработке следующего дескриптора. 
Если же этот дескриптор относится к перечню обязательных, то документу ставится 
признак недостаточности информации, после чего производится поиск значения 
следующего дескриптора в массиве лексем. 

Если в обрабатываемом документе были найдены не все обязательные дес- 
крипторы, то необходимо проверить наличие его продолжения в ячейке с необрабо- 
танными документами. Для этого вначале отсылается запрос детектору веса. Если он 
возвращает нулевое значение, то ячейка пуста и продолжения документа нет. Если 
значение ненулевое, то блок управления механическими устройствами подает команду 
манипулятору извлечь следующий документ из ячейки. Документ сканируется, рас- 
познается и проверяется, не является ли он продолжением предыдущего документа. 

Если по окончании обработки всех дескрипторов у документа стоит признак 
недостаточности информации, то он помещается в электронную очередь документов 
и отправляется запрос на получение по нему дополнительной информации в сеть и 
руководителю. Несмотря на отсутствие какой-то части информации, данные из этого 
документа заносятся в базу данных. Если у документа заполнены все обязательные 
поля, то его обработка завершена. 


Структура электронного документа 


На рис. 3 представлена общая структура электронного документа, которая состоит 
из 5 связанных таблиц: «тип документа», «документ», «тело документа», «дескриптор», 
«тип документа / дескриптор». 

Одинаковые дескрипторы могут находиться в различных типах документов. 
При этом они могут быть обязательными для одного типа документа и необязатель- 
ными для другого. Также они могут иметь различный порядок расположения (вес 
дескриптора) в теле документа. Если вес дескриптора равен нулю, то порядок его 
расположения в теле документа определенного типа не имеет значения. Если вес 
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дескриптора отличен от нуля, то порядок его расположения должен быть в соответ- 
ствии с его весом. Чем меньше вес дескриптора, тем выше он должен быть располо- 
жен в теле документа относительно дескрипторов с большим весом. Дескрипторы С 
одинаковым весом могут располагаться в любой последовательности относительно 
друг друга. 


Документ 
Тело документа 
Код документа 
Код документа 
Код типа документа 
Код дескриптора 
Наименование / номер 
Тип документа / Дескриптор Значение поля 
Код типа документа Номер строки 
Код дескриптора Указатель на родителя 
Обязательность поля 
Тип документа Вес дескриптора Дескриптор 
Код типа документа Код дескриптора 
Наименование Наименование 
Тип значения 


Рисунок 3 — Общая структура электронного документа 


Номер строки — это номер строки отсканированного документа, в которой на- 
ходится значение дескриптора. Указатель на родителя необходим для структуриро- 
вания информации, хранимой в документе. Если значение дескриптора находится в 
таблице, то указателем на родителя будет номер строки, в которой находится шапка 
соответствующей таблицы. Если значение дескриптора не находится в таблице, то 
указатель на родителя будет равен нулю (то есть будет ссылаться на сам документ). 

Рассмотрим выполнение бюстером типичной складской операции — внесение в 
базу данных информации о поступившем документе (рис. 1). В результате распозна- 
вания его текста формируется многомерный массив лексем, представленный в табл. 1. 
В таблице лексемы разделены между собой пробелами и знаками препинания. 


Таблица 1 — Массив лексем обрабатываемого документа 


Номер строки | Массив лексем строки обрабатываемого документа 

1 Постачальник ООО 'БиЭндПи, ЛТД (совместная деятельность)! 
2 Р/р 260083012307 в ГОУ ПИб в г.Киеве, МФО 300012 
3 ШН, номер св1доцтва 36073005 

4 код ЕДРПОУ 14351789, Адреса пр Червонозоряний, 3 
5 Одержувач ДП 'Кв1за-Трейл' 

6 Сплатити до 02.09.2004 тел 

7 Рахунок-фактура №6 

8 в1д 30 серпня 2004р. 

9 № Назва Од. вим. Кл. Цна без ПДВ Сума без ПДВ 

10 1 Вода мин. Неаполис 0,33л шт 3 22.00 66.00 

п 2 Драже Свиточ изюм в какао 80г шт 2 12.00 24.00 

12 3 Арахис Клинское пиво копченый 30г шт 1 22.00 22.00 
13 Разом без ПДВ: 112,00 

14 Знижка/Надбавка: 0,00 

15 Разом без ПДВ: 112.00 

16 ПДВ: 22,80 

17 Всього з ПДВ: 134,40 

18 Всього на суму: 

20 Сто тридцять чотири грн 40 коп. 

21 ПДВ: 22.4 грн 


134 «Искусственный интеллект» 2014 №3 


Алгоритм внесения роботизированным компьютером информации... 


В представленном массиве присутствует лексема «Рахунок-фактура», которая 
определяет тип документа. Предположим, что у некого предприятия для этого типа 
документов определен перечень дескрипторов, представленный в табл. 2. Дескрипторы, 


входящие в одну Дескрипторную группу представлены через точку с запятой. 


Таблица 2 — Дескрипторные группы типа документа «Рахунок-фактура» 


Код дескриптора Дескриптор Обязательность дескриптора |_ Вес дескриптора 

д Постачальник Да 1 

Д2 Одержувач Да 1 

ДЗ Сплатити; сплатити до Да 1 

Д4 Назва Да 2 

Д5 Од. вим.; одиниця вимру Да 2 

Дб К1л.; юльюсть Да 2 

Д7 Цна без ПДВ Да 3 

Д8 Сума без ПДВ Да 4 

Д9 ПДВ Да 4 

Д10 Всього з ПДВ Да 5 

ДИ тел.; телефон Нет 0 

Таблица 3 — Тело документа 
Код Код Значение поля Номер Указатель 

документа | дескриптора строки | на родителя 
РФб Д1 ООО 'БиЭндПи, ЛТД (совместная 1 0 
деятельность)' Р/р 260083012307 в ГОУ ПИб в 
г.Киеве, МФО 300012 ГПН, номер св1доцтва 
36073005 код ЕДРПОУ 14351789, Адреса пр 
Червонозоряний, 3 

РФб Д2 ДП 'Квза-Трейд' 5 0 
РФб ДЗ 02.09.2004 6 0 
РФб Д4 Вода мин. Неаполис 0,33л 10 9 
РФб Д5 шт 10 9 
РФб Дб 3 10 9 
РФб Д7 22.00 10 9 
РФб Д8 66.00 10 9 
РФб Д4 Драже Свиточ изюм в какао 80г И 9 
РФб Д5 шт И 9 
РФб Дб 2 И 9 
РФб Д7 12.00 И 9 
РФб Д8 24.00 И 9 
РФб ДА Арахис Клинское пиво копченый 30г 12 9 
РФб Д5 шт 12 9 
РФб Дб 1 12 9 
РФб Д7 22.00 12 9 
РФб Д8 22.00 12 9 
РФб Д9 22,80 16 9 
РФб 10 134,40 И 9 


В массиве лексем обрабатываемого документа ведется поиск каждого дескриптора 
из перечня дескрипторов соответствующего типа документа. В первой строке 
массива лексем находится ключевое слово «Постачальник». Согласно алгоритму об- 
работки документов (рис. 2) проверяем соседнюю справа лексему («ООО»). Она не 
входит в перечень дескрипторов, а значит, является либо значением, либо частью 
значения дескриптора «Постачальник». Далее по алгоритму проверяем лексему 
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справа («БиЭндПи»). Аналогичным образом до конца строки проверяем лексемы справа. 
Ни одна из них не входит в перечень дескрипторов, то есть их значения следует кон- 
катенировать. Лексема в начале следующей строки входит в перечень дескрипторов 
(«Р/р»), поэтому конкатенированные значения предыдущих лексем сохраняются как 
значение дескриптора «Постачальник». 

Аналогичным образом заполняем значения дескрипторов «Р/р», «МФО», «ШН, 
номер св1доцтва», «ЕДРПОУ», «Адреса», «Одержувач », «Сплатити до». Ни справа, 
ни снизу от дескриптора «тел.» нет лексемы, которая бы не входила в перечень 
дескрипторов. Но этот дескриптор не является обязательным, поэтому его заполне- 
ние пропускаем и переходим к заполнению значения следующего дескриптора — «Назва». 
Справа от него стоит лексема, которая входит в перечень дескрипторов. Проверяем 
лексемы до конца строки. Все они входят в перечень дескрипторов. Это значит, что 
текущая строка является шапкой таблицы. То есть все лексемы в пределах ячейки, 
находящейся ниже дескриптора, являются его значением. Таким образом, значением 
дескриптора «Назва» является «Вода мин. Неаполис 0,33л». Аналогично заполняем 
значения «Од. вим.», «Кал.», «Цна без ПДВ», «Сума без ПДВ». 

В табл. 3 однозначно отражены структура и содержимое документа, обрабо- 
танного в соответствии с разработанным алгоритмом. Разработанный алгоритм позволяет 
автоматизировать процесс занесения информации из бумажных источников в элек- 
тронные базы данных. Несмотря на то, что алгоритм требует дальнейшей детали- 
зации, возможность его применения на практике представлена на примере обработки 
счета-фактуры. Разработанная структура электронного документа обеспечивает полную 
идентичность электронной и бумажной версии документа. 
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КЕ5ОМЕ 
1.5. бат Кот, 5.Г. ТегезйсйенкКо 


А1огийт орЕтетия [июгтаноп тот Рарег Роситеи! 


5 то Иестотшс Остжава5ез Ву КоБойс Сотршег 

ТгапзЕегиие шЮгтайоп Нот рарег зоигсез ш @есфотс дайаБазез оЁ ещегризез 
1$ опе оЁ Те п1о$ ппронап{ ргосеззез ш д4оситепе сисшайоп. Ваеуапсе оЁ ащютаНоп 
ОР {11$ ргосе$з 1$ самзе4 Бу пее4 0 епзиге Ше геПпаБИИу оЁ еметеа жа, №1 зреед 
доситепЕ Вап@Ппе, аз уе аз фе Ёасё фа Фе уоште оЁ доситеп тесеуе@ г 
ргосеззше уайез ш Чегет Ите рег104$. 

МВПе ргосеззше а Чоситеп тап сакВез ею а свагасензис рЬБгазе апа 
питед1ае]у ипдег$апа у’ваё И геРег$, ап4 Во\’ ю Вапе 1$ шюоппайоп. А{ Фе зате 
Ите п 1$ а уегу АЯ си ЧазК Гог а гоБот. Опе оЁ Фе та]ог сваПепоез {ю Ше деуе|ортепе 
оЁ Ше гобойс сотршег ай сап тю гер|асе ап оЁИсе етроуее ш е ухогкр/асе 15 райеги 
тесоот оп. 

Ригрозе оЁ {1$ \’отК 15 © 4еуе]ор ап а!2огИ т оЁ ещегте шРюгтайНоп Нот рарег 
доситет шю @еспошс дааБазез ул а гобонс сотршег ап4 Фе РогтаНоп о згасфаге 
оГап @есготс доситеп:. 

Тве 4еуеоре4 а!оогИт аПо\з ю амютае Фе ргосез$ оР ещение шКогтайоп 
Кот рарег доситеп шю еесфотшс ЧааБазез. Резрие Фе ас Фа Фе а1еогит 
тедилтез Райфег ог даа, е роз ЬИЦу оф Из аррИсайоп ш ргасйсе 15 гергеземеа Бу Фе 
ехатр/е оР ргосеззше оГ Фе шуосе. Оеуе]оре@ эёгасвите оЁР ап @есботас доситепе 
ргоу14ез а сотр!ее 14еп у еесошс ап4 рарег уегз1оп$ оР Те доситепе. 


Статья поступила в редакцию 14.04.2014. 
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